Tự động dịch 39 ngôn ngữ: Cách hệ thống dịch thuật AI của chúng tôi xử lý thuật ngữ chuyên ngành

Ngày nay, dịch máy đã đạt đến mức độ hoàn thiện đến nỗi trong nhiều trường hợp, người ta không thể phân biệt được nó với bản dịch do con người thực hiện. Các dịch vụ dịch thuật này mang lại văn phong trôi chảy, sử dụng thành ngữ tự nhiên và nắm bắt được phong cách ngôn ngữ phù hợp. Thế nhưng, khi dịch một bộ dữ liệu DPP, cụm từ “rear lock fiber closure” bỗng chốc lại trở thành thành “Hinterschloss-Faserverschluss”.

Vấn đề nằm ở thuật ngữ chuyên ngành. Trong bài viết này, chúng tôi sẽ giải thích tại sao dữ liệu sản phẩm không thể được xử lý như tiểu thuyết, và Transpareo cung cấp những công cụ nào để đảm bảo 39 phiên bản ngôn ngữ của bạn vẫn dễ hiểu.

Vấn đề cốt lõi: một từ, nhiều nghĩa

“Seal” trong DPP của một chiếc áo khoác ngoài trời: lớp chống thấm. “Seal” trong phòng thí nghiệm: hải cẩu hoặc miếng đệm, tùy theo ngữ cảnh. “Seal” trong biên bản bảo trì: trong một số trường hợp có thể là con dấu.

Một mô hình dịch thuật chung sẽ lựa chọn dựa trên ngữ cảnh thống kê. Với một văn bản liền mạch, cách này hoạt động hiệu quả - tiểu thuyết cung cấp rất nhiều ngữ cảnh. Nhưng với trường dữ liệu primary_closure: seal, hầu như không có ngữ cảnh nào. Mô hình chỉ đưa ra dự đoán.

Hậu quả là những lỗi nhỏ nhưng tinh vi. Không nghiêm trọng như trường hợp “Hinterschloss-Faserverschluss”, nhưng lại có tác động sâu rộng: một bộ phận được gọi là “Dichtung” trong tiếng Đức, đột nhiên lại được gọi là “sigillo” thay vì “guarnizione” trong DPP tiếng Ý. Một nhân viên mua hàng không thể tìm thấy phụ tùng thay thế đó nữa.

Những gì Transpareo đang thực hiện ngày nay

Hệ thống dịch thuật của chúng tôi tự động chuyển đổi mọi nội dung mới sang tất cả các ngôn ngữ đang hoạt động. Hệ thống này có bốn đặc điểm nổi bật:

Giữ nguyên định dạng Markdown và biến: Các ký hiệu giữ chỗ như <a href="/vi/đăng ký">Pro-Mitgliedschaft</a> và cấu trúc Markdown sẽ được trích xuất trước khi dịch; chỉ phần văn bản thuần túy mới được dịch, sau đó các cấu trúc này sẽ được chèn lại mà không thay đổi. Nhờ đó, các liên kết, biểu mẫu và bố cục vẫn nhất quán trên tất cả các ngôn ngữ.
Các mục dịch thuật tập trung: Các bản dịch không được lưu trữ trực tiếp trong bản ghi dữ liệu mà được lưu trong một lớp dữ liệu chung. Nhiều bản ghi dữ liệu có cùng văn bản gốc sẽ chia sẻ chung một bản dịch. Điều này giúp tiết kiệm chi phí dịch thuật và tự động thống nhất các thuật ngữ trên toàn bộ mô hình dữ liệu.
Tự động dịch lại khi có thay đổi: Nếu văn bản gốc được sửa đổi, các bản dịch trong tất cả các ngôn ngữ sẽ được tạo lại. Một chỉnh sửa trong tiếng Đức sẽ tự động được áp dụng cho 38 phiên bản ngôn ngữ khác.
Ghi chú cho từng bản ghi dữ liệu: Nội dung có thể được loại trừ khỏi quy trình tự động hoặc các bản dịch hiện có có thể được khóa lại - ví dụ như đối với tên sản phẩm quốc tế hoặc các chỉnh sửa thủ công.

Nơi khách hàng bổ sung quá trình xử lý

Dịch tự động phần lớn mang lại kết quả chính xác cho các văn bản mô tả, văn bản tiếp thị và hướng dẫn bảo dưỡng. Đối với thuật ngữ chuyên ngành quan trọng - như “seal”/“guarnizione” - vẫn còn một số lỗi nhỏ mà quản trị viên của khách hàng phải chỉnh sửa.

Ở đây, quản trị viên có ba phương án:

Ghi đè thủ công theo từng ngôn ngữ và từ khóa: Mỗi mục dịch thuật có thể được mở trong Trình quản lý ứng dụng và điều chỉnh theo từng ngôn ngữ. Với tùy chọn “Khóa bản dịch”, bản dịch thủ công này sẽ được giữ nguyên trong lần chạy tự động tiếp theo.
Nhập từ điển thuật ngữ: Các thuật ngữ hiện có từ các công cụ dịch thuật hoặc từ điển PDF có thể được nhập dưới dạng tệp CSV và tự động tạo ra các mục dịch thuật.
Sửa lỗi theo từng ngôn ngữ trong quá trình vận hành: Một nhân viên bán hàng người Ý phát hiện ra lỗi, sửa lỗi đó trong Trình quản lý ứng dụng - bản sửa lỗi có hiệu lực ngay lập tức, các bản dịch còn lại vẫn được giữ nguyên.

Thực trạng các ngôn ngữ EU

24 ngôn ngữ chính thức của EU nghe có vẻ nhiều. Trên thực tế, chúng được chia thành ba nhóm:

Thị trường cốt lõi: DE, EN, FR, IT, ES, NL - tại đây, mọi người tiêu dùng đều mong đợi sự hoàn hảo
Thị trường quan trọng: PT, PL, SV, DA, FI - chất lượng tốt, thỉnh thoảng vẫn nhận ra dấu vết của máy dịch
Ngôn ngữ hiếm: MT, GA, ET, LV, LT - đôi khi phải cung cấp DPP bằng tiếng Malta, dù không có người tiêu dùng cuối nào ở Malta quét mã vạch. Tuy nhiên, đây là nghĩa vụ bắt buộc.

Yêu cầu này không phải là tùy chọn. Quy định ESPR yêu cầu nội dung DPP phải được cung cấp bằng ngôn ngữ của quốc gia thành viên nơi sản phẩm được bán. Do đó, những ai kinh doanh tại 27 quốc gia sẽ phải xử lý 24 ngôn ngữ (một số quốc gia chia sẻ chung ngôn ngữ).

Tại sao cần một lớp bản địa hóa tập trung

Hầu hết các nền tảng lưu trữ bản dịch dưới dạng các trường bổ sung trong bộ dữ liệu: description_de, description_en, … 39 trường cho mỗi thuộc tính có thể dịch. Nghe có vẻ đơn giản, nhưng lại có ba nhược điểm:

Văn bản được lưu trữ trùng lặp. Hai sản phẩm có cùng ghi chú về chất liệu sẽ tạo ra 39 + 39 bản dịch thay vì chỉ 39 bản dịch duy nhất
Khó mở rộng quy mô. Việc thêm ngôn ngữ thứ 40 đồng nghĩa với việc phải di chuyển cấu trúc dữ liệu (schema migration) trên tất cả các mô hình có thể dịch
Khó áp dụng các chỉnh sửa trên phạm vi toàn bộ hệ thống. Nếu từ “guarnizione” được sửa ở mọi nơi, tất cả các bản ghi dữ liệu sẽ phải được chỉnh sửa riêng lẻ

Lớp dịch thuật phân chia giải quyết vấn đề này: một mục nhập, nhiều tham chiếu. Chỉ cần một lần sửa, tất cả các bản ghi dữ liệu đều được cập nhật.

Những gì chúng ta chưa có

Một cơ sở dữ liệu thuật ngữ tùy chỉnh cho khách hàng với tính năng đề xuất tự động đang trong kế hoạch phát triển, nhưng hiện tại chưa được triển khai. Những ai bắt đầu ngay hôm nay vẫn có thể tiến xa với các công cụ hiện có: ghi đè thủ công, nhập từ điển thuật ngữ và đánh dấu giữ nguyên đều đáp ứng được các trường hợp sử dụng phổ biến nhất.

Chúng tôi tin rằng máy móc nên đảm nhận phần lớn công việc, còn con người chỉ can thiệp khi thực sự cần thiết. Cho đến khi tính năng nhận diện thuật ngữ tự động có sẵn, việc can thiệp thủ công vẫn được thực hiện một cách minh bạch - và điều đó trung thực hơn một lời hứa không thể thực hiện được.